技術問答
技術文章
iT 徵才
Tag
聊天室
2024 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
2023 iThome 鐵人賽
DAY
26
0
AI & Data
進入AI的世界
系列 第
26
篇
➤D-26 核心應用☞自然語言處理-2(主要架構)
15th鐵人賽
epoch
團隊
臣無禮
2023-10-11 13:02:43
347 瀏覽
分享至
主要架構
階層分析架構
語法分析(Syntactic Analysis):
利用語文法則去瞭解一個句子內,詞與詞之間應該有的正確順序、組合,與其一定程度遵守的「文法」。
語意分析(Semantic Analysis):
瞭解一個句子內詞與詞彼此的關係,以及句子所欲「表達的涵義」。
由上而下的階層或架構:
Ⅰ. 斷詞(Token):分析文本共有幾個詞(Words)(中文稱為字,英文稱為詞,後以詞統稱)。
Ⅱ. 停用詞(Stop Words):那些詞是重要、值得分析的,哪些是可以忽視的,例如:the、of、a、for等。
Ⅲ. 詞性標註(POS):句子內的詞,其屬性為何(形容詞、動詞、名詞)。
Ⅳ. 詞向量(Word Vectors):分析每個詞自身的特徵。
Ⅴ. 句法剖析(Parsing):瞭解這個句子結構、詞與詞彼此之間關係、哪個是主詞、哪個是受詞、哪個是謂詞。
Ⅵ. 命名實體識別(Named Entity Retrieval, NER):句子內有哪些主要的專有名詞。
Ⅶ. 分析句子主要意涵與意圖(Semantic):文本分類、摘要抽取、意圖分析等。
開發架構
基於法則的NLP(Rule Based NLP)開發架構:
1980年代專家系統時期的主要方法,NLP處理要靠if、then、else的法則來處理。這是一種「硬式」法則,必須完全一致才可以啟動法則。只能應用在領域範圍較小、句法簡單、關鍵字少而明確的小型QA系統。
基於機器學習方法的NLP開發架構(ML Based NLP):
Ⅰ. 利用直觀實用的知識取代法則:實際練習如何描述、如何騎腳踏車來取代瞭解說話的文法結構。
Ⅱ. 由下而上(Bottom Up)取代由上而下(Top Down):機器學習法是由下面的實例(Instance)往上自然瞭解語言的法則,而法則學派則是由上面的「法則」指導下面的「語言產出」。「機器學派是人類真正練習說話的方式;法則學派是『語言學家』認為語言應該要有的結構」。
Ⅲ. 由模仿取代理解:由大量語料的模仿人類真正說話的方式,來取代語言學家由法則的角度來瞭解、分析語言結構。
Ⅳ. 「特徵工程」取代「法則」:「特徵工程」為機器學派在NLP中最重要的,對於語言文字的理解必須先由人類專家來篩選該文本具有的特徵。
Ⅴ. 不同任務不同Model:有不同的特徵工程、不同選用的演算法。
Ⅵ. 預處理的重視:傳統機器學習方法及演算法的NLP,非常注重文字的「預處理」,包括詞與句階段的所有語法分析工具與語意分析工具,例如:斷詞、句法剖析(Parsing)等。
基於深度學習的NLP開發架構(DL Based NLP):
傳統機器學習演算法雖比法則學派在NLP上的處理更有效與精確,例如:非結構的語言辨識、語音生成、機器翻譯等。直到2015年後,一舉衝破障礙,在語音辨識、機器翻譯等方面達到95%正確率,逐漸取代傳統機器學習。
Ⅰ. 特徵工程方面:少了人為特徵工程階段,深度學習本身會自己學習與執行文字特徵抽取與篩選。
Ⅱ. 資料預處理方面:對於「預處理」(Preprocessing)並不是特別需要,由於其由大數據來學習,故在自我學習中,深度學習語言模型(Language Model)都已經自己學會並執行類似斷詞、停用詞、「詞性標註」,及「句法剖析」的工作。
Ⅲ. 詞向量方面:最主要核心工具就是所謂的「詞向量」(Word Vector),取代傳統的「法則」與機器學習所重視的計算詞「出現頻率」(Word Frequency)特徵工程。深度學習在NLP主要問題是需要非常大量的訓練資料,也需要非常大量的運算力及訓練成本,例如:BERT、GPT-3等。
混合型NLP開發架構(Mixed NLP Framework):
未來趨勢會是三種開發架構之結合的「混合型NLP模式」,例如:深度學習主攻下層「特徵抽取」(Feature Extracting),加上法則學派的「知識圖譜」、「專家系統」來增加語法結構性及上層知識邏輯推理的正確性。也可以再加上「資訊抽取」及「分類」非常有效的SVM、隨機森林、貝氏推理等機器學習法則來提升整體效率。
參考資料
人工智慧-概念應用與管理 林東清著
留言
追蹤
檢舉
上一篇
➤D-25 核心應用☞自然語言處理-1(基本概念與應用)
下一篇
➤D-27 核心應用☞自然語言處理-3(特徵抽取1)
系列文
進入AI的世界
共
30
篇
目錄
RSS系列文
訂閱系列文
2
人訂閱
26
➤D-26 核心應用☞自然語言處理-2(主要架構)
27
➤D-27 核心應用☞自然語言處理-3(特徵抽取1)
28
➤D-28 核心應用☞自然語言處理-4(特徵抽取2)
29
➤D-29 核心應用☞自然語言處理-5(主要演算模式1)
30
➤D-30 核心應用☞自然語言處理-6【完】(主要演算模式2)
完整目錄
直播研討會
{{ item.subject }}
{{ item.channelVendor }}
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
1064
組
團體組數
40
組
累計文章數
22198
篇
完賽人數
602
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
windows
php
c#
windows server
linux
css
react
vue.js
熱門問題
如何讓在中國的同事可以穩定的使用台灣總部的系統服務
Web Application 與Web Service 的差異
熟識南投軟體工程師推薦
如何練國考資訊題?
求救,erp 無法使用,ping封包 100% 丟失
Active Directory 環境中時間無法同步問題
如何以php抓取html文件的特定元素,並且依照抓取順序填入頁碼
fortigate 60E 配IP給無限AP問題
電腦版Outlook 封存郵件無法包含有作標幟的郵件
switch 指令的應用
熱門回答
如何讓在中國的同事可以穩定的使用台灣總部的系統服務
求救,erp 無法使用,ping封包 100% 丟失
Active Directory 環境中時間無法同步問題
熟識南投軟體工程師推薦
如何以php抓取html文件的特定元素,並且依照抓取順序填入頁碼
熱門文章
大總結 - Win11 是對企業和私人的大改版
卷 31:iThome 鐵人賽寫作攻略——新手必看指南
每日一篇學習筆記 直到我做完專題 :( [Day1]
每日一篇學習筆記 直到我做完專題 :( [Day2]
Python 字串string 方法,zfill() & f"{i:0xd}" &浮點數格式化
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}